SMART: Recuperación multimodal de momentos en video con audio mejorado SMART integra audio y tokens por escena para lograr una recuperación precisa de momentos en video. Supera métodos previos con mejoras de hasta 2.59% en R1@0.7. 2026-06-09 · 2 min